机器学习(ML)已经证明了用于准确和结晶材料的准确性能预测的承诺。为了化学结构的高度精确的ML型号的化学结构属性预测,需要具有足够样品的数据集。然而,获得昂贵的化学性质的获得和充分数据可以是昂贵的令人昂贵的,这大大限制了ML模型的性能。通过计算机视觉和黑暗语言处理中数据增强的成功,我们开发了奥古里希姆:数据八级化图书馆化学结构。引入了弃头晶系统和分子的增强方法,其可以对基于指纹的ML模型和图形神经网络(GNNS)进行脱颖而出。我们表明,使用我们的增强策略意义地提高了ML模型的性能,特别是在使用GNNS时,我们开发的增强件在训练期间可以用作广告插件模块,并在用不同的GNN实施时证明了有效性。模型通过Theauglichem图书馆。基于Python的封装我们实现了EugliChem:用于化学结构的数据增强库,可公开获取:https://github.com/baratilab/auglichem.1
translated by 谷歌翻译
In recent years, Machine learning (ML) techniques developed for Natural Language Processing (NLP) have permeated into developing better computer vision algorithms. In this work, we use such NLP-inspired techniques to improve the accuracy, robustness and generalizability of ML models for simulating transient dynamics. We introduce teacher forcing and curriculum learning based training mechanics to model vortical flows and show an enhancement in accuracy for ML models, such as FNO and UNet by more than 50%.
translated by 谷歌翻译
热分析在不同的温度场景下提供了对电子芯片行为的更深入见解,并可以更快地设计探索。但是,使用FEM或CFD,在芯片上获得详细而准确的热曲线非常耗时。因此,迫切需要加快片上热溶液以解决各种系统方案。在本文中,我们提出了一个热机学习(ML)求解器,以加快芯片的热模拟。热ML-Solver是最近的新型方法CoAemlSim(可组合自动编码器的机器学习模拟器)的扩展,并对溶液算法进行了修改,以处理常数和分布式HTC。在不同情况下,针对商业求解器(例如ANSYS MAPDL)以及最新的ML基线UNET验证了所提出的方法,以证明其增强的准确性,可伸缩性和概括性。
translated by 谷歌翻译
线性系统的迭代求解器是部分微分方程(PDE)的数值解的关键组件。过去几十年来一直进行了深入的研究,例如雅各比,高斯 - 塞德尔,共轭梯度,跨部方法及其更高级的变体,但仍有迫切需要开发更快,更强大和更可靠的求解器。基于操作员回归的科学深度学习的最新进展,我们提出了一种提示,即用于微分方程的混合,迭代,数值和可转移的求解器。提示结合了标准放松方法和深层操作员网络(DeepOnet)。与标准数值求解器相比,提示能够为宽类微分方程提供更快的解决方案,同时保留接近机器零的精度。通过本本征分析,我们发现提示中的单个求解器靶向本征谱系中的不同区域,从而导致均匀的收敛速率,从而使混合求解器的整体表现出色。此外,提示适用于多维方程,并且在计算域和可转移到不同离散化方面具有灵活性。
translated by 谷歌翻译
预期模型的大小正在增加,它们在各种NLP任务上的性能也在增加。但是,随着记忆能力的增长,他们可能会增加更多的社会偏见。在这项工作中,我们检查了模型大小及其性别偏见之间的联系(特别是职业性别偏见)。我们在两个设置中测量三个蒙版语言模型家族(Roberta,Deberta和T5)中的偏见:直接使用基于提示的方法,并使用下游任务(Winogender)。一方面,我们发现较大的模型在以前的任务上获得了更高的偏差分数,但是当对后者进行评估时,它们会造成更少的性别错误。为了检查这些潜在的矛盾结果,我们仔细研究了Winogender不同模型的行为。我们发现,尽管较大的模型的表现要比较小的模型,但其错误是由性别偏见引起的概率。此外,我们发现,与抗疾病的型号相比,刻板印象误差的比例随模型大小而生长。我们的发现突出了增加模型大小可能引起的潜在风险。
translated by 谷歌翻译
高斯贝叶斯网络(又称线性高斯结构方程模型)广泛用于建模连续变量之间的因果相互作用。在这项工作中,我们研究了学习固定结构高斯贝叶斯网络的问题,直到总变化距离有界误差。我们分析了常用的节点最小二乘回归(最小值),并证明其具有近乎最佳的样品复杂性。我们还研究了一些问题的新算法: - batchavgleastsquares平均在每个节点处采用最小二乘解决方案的几批批次,因此可以在批次大小和批次数量之间插入。我们表明,batchavgleastsquares也具有接近最佳的样品复杂性。 -Cauchyest将解决方案的中位数带到每个节点处的几批线性系统。我们表明,专门针对Polytrees的算法Cauchyesttree具有接近最佳的样品复杂性。在实验上,我们表明,对于未经污染的,可实现的数据,最小值的算法表现最好,但是在存在污染或dag sillsperification的情况下,cauchyest/cauchyesttree和batchavgleastsquares的性能更好。
translated by 谷歌翻译
Discovering governing equations of a physical system, represented by partial differential equations (PDEs), from data is a central challenge in a variety of areas of science and engineering. Current methods require either some prior knowledge (e.g., candidate PDE terms) to discover the PDE form, or a large dataset to learn a surrogate model of the PDE solution operator. Here, we propose the first solution operator learning method that only needs one PDE solution, i.e., one-shot learning. We first decompose the entire computational domain into small domains, where we learn a local solution operator, and then we find the coupled solution via either mesh-based fixed-point iteration or meshfree local-solution-operator informed neural networks. We demonstrate the effectiveness of our method on different PDEs, and our method exhibits a strong generalization property.
translated by 谷歌翻译